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摘 要 : [目的 /意义 ] 技 术 机 会 预测 有 利于 国家 和 企业 管理 者 识别 技术 未 来 的 发 展 方向 ,从 而 调整 技术 发 展 战略 ,在 技术 
竞争 中 占据 优势 地 位 。 [ 方法 “过程 ] 提 出 一 种 基于 深度 学 习 的 技术 机 会 预测 方法 。 首 先 运用 AP(affinity propaga- 
tion) 聚 类 算法 实现 对 技术 领域 的 主题 划分 。 其 次 运用 Doc2Vec 算法 计算 出 各 技术 领域 专利 文本 相似 度 情况 , 进 
而 识别 出 具有 发 展 潜力 的 技术 领域 。 再 次 采用 生成 式 拓 扑 映 射 (generative topographic mapping, GTM) 算法 对 发 展 


潜力 技术 领域 绘制 专利 地 图 ,通过 GTM 送 向 映射 获 和 全 


FARIA. RA ,构建 基于 深度 学 习 的 链接 预测 模型 ,对 识 


别 出 的 技术 机 会 进行 链接 预测 ,从 而 获得 高 发 展 概率 的 技术 机 会 。[ 结果 /结论 ] 使 用 新 能 源 汽车 专利 数据 对 方法 


的 有 效 性 进行 验证 ， 


y 
> 
T- 
des 并 对 新 能 源 汽车 的 技术 机 会 进行 预测 。 
Ds 3 深度 学 习 ”链接 预测 “生成 式 拓 扑 映 射 


词 : 技术 机 会 预测 
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结果 显示 基于 深度 学 习 的 链接 预测 模型 的 预测 准确 率 、 召 回 率 和 Fl 值 均 优 于 其 他 预测 模型 ， 
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QON 随 着 全 球 科技 创新 活动 的 日 益 活跃 ,技术 创新 在 


RR 展 中 的 作用 愈加 重要 。 加 快 现代 工业 技术 体系 


建设 ,有 利于 我 国 经 济 


高 质量 发 展 。 面 向 “中 国 制 造 


Q25^ ,科学 技术 创新 如 何 支持 与 引领 现代 工业 技术 系 
统 的 发 展 ,如 何 实现 质量 效率 与 动力 变革 的 关键 是 科 


学 钼 动 新 技术 、 新 产业 苗 壮 成 长 。 在 当前 知识 经 济 环 


. PIR FETHEARRER, 分 析 科 技 发 展 走向 , 精 


确 预测 技术 机 会 ,把 所 技术 发 展 方向 ,对 于 国家 和 企业 
都 有 重要 意义 。 近 年 来 随 着 5G、 大 数据 、 人 工 智能 与 
深度 学 习 等 信息 技术 的 不 断 发 展 ,基于 数据 驱动 的 决 
TR ,战略 与 预测 研究 逐渐 成 为 各 国 关注 的 焦点 。 在 此 
背景 下 运用 深度 学 习 等 方法 ,准确 的 对 技术 机 会 进行 


预测 ,能 够 帮助 企业 集中 优势 资源 攻克 重点 领域 ,打破 
技术 棱 格 ,为 现代 产业 技术 体系 构建 编制 路 线 图 ,进而 


帮助 企业 在 未 来 国际 竞争 中 占据 有 利 地 势 。 


1 研究 现状 


1.1 技术 机 会 分 析 

技术 机 会 分 析 是 探讨 和 评 信 技 术 未 来 发 展 中 存在 
的 风险 与 机 遇 , 是 技术 预测 的 一 种 。 其 目的 是 预测 
技术 演变 的 未 来 情景 ,帮助 企业 预测 新 兴 技 术 的 创新 
机 会 。 该 过 程 需要 消耗 专家 大 量 的 时 间 进 行 技术 分 
Ar ,评估 与 预测 ” 。 技 术 机 会 分 析 的 相关 定义 最 初 是 
由 斯 坦 福 的 P，Schwartz 教授 于 1974 年 提出 ” 。P. 
Schwartz 教授 认为 ,技术 创新 机 会 可 以 为 产业 创新 带 
来 新 的 发 展 机 遇 , 是 可 以 改变 产业 与 技术 变革 的 重要 
技术 。1995 年 美国 学 者 A. L. Porter 提出 了 技术 机 会 
分 析 概 念 ” ,他 认为 技术 机 会 分 析 是 指 在 已 有 技术 的 
基础 上 采用 各 种 分 析 方 法 对 技术 未 来 创新 可 能 进行 识 
别 分 析 。 依 据 技术 机 会 的 定义 可 以 发 现 ,技术 机 会 源 
于 科技 的 不 断 发 展 过 程 。 因 此 ,可 以 将 其 定义 为 使 用 
科学 的 方法 对 技术 信息 进行 技术 演化 分 析 和 预测 的 过 
程 。 根 据 以 往 的 研究 ,技术 机 会 分 析 可 以 分 为 3 个 方 
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^7 :未 来 技术 趋势 .技术 创新 组 合 和 关键 技术 。 其 
中 ,技术 创新 组 合 常 称 为 技术 空白 点 ,是 指 未 来 具有 较 
强 发 展 潜力 但 现在 仍 未 出 现 的 技术 组 合 。 这 些 技术 组 


但 未 来 极 有 可 能 出 现 的 技术 组 合 。 现 阶段 学 者 多 采用 
专利 地 图 的 方法 探寻 技术 空白 点 。 在 专利 地 图 中 , 空 
白 区 域 即 为 技术 空白 点 。 因 为 专利 地 图 是 由 技术 信息 


合 可 能 是 未 来 技术 创新 的 关键 ,是 科技 工作 者 与 研发 
人 员 关 注 的 焦点 ,因此 笔者 主要 针对 技术 机 会 分 析 中 
的 技术 创新 组 合 进行 研究 。 

早期 学 者 常 采用 德尔 非法 进行 技术 机 会 分 析 。 随 
着 数据 科学 不 断 发 展 ,逐渐 有 学 者 从 定量 分 析 角 度 对 
技术 机 会 进行 分 析 , 通 过 文本 分 析 .文献 计量 和 数据 挖 
所 等 方法 对 科技 文献 信息 进行 有 效 挖 据 进而 实现 技术 
机 会 探索 。 目 前 ,技术 机 会 分 析 研 究 方法 主要 包括 运 
用 专利 属性 数据 进行 分 析 、 文 本 分 析 和 技术 空白 点 。 
专利 属性 数据 主要 是 指 表征 专利 原始 属性 的 数据 ,这 
些 数 据 均 包含 在 专利 公示 信息 中 ,如 专利 的 国际 分 类 
号 GPC) .专利 引用 详情 专利 申请 日 期 与 公示 日 期 、 
专利 权 人 等 。H.G. Woo 等 结合 专利 关键 词 和 引用 数 
据 恋 现 了 技术 研发 的 机 会 识别 ”;S，H，Chang 等 基于 
EE 分 类 号 运用 专利 技术 网 络 分 析 方 法 预测 了 人 工 智 
能 接 术 的 技术 创新 机 会 ”;S，Y，Li 等 基于 专利 基础 
信息 构建 了 专利 组 合 模型 ,进而 实现 了 技术 创新 机 会 
Ji] " SY. Tang 等 基于 IPC 分 类 号 构建 专利 技术 共 现 
网 贸 , 运 用 社团 发 现 算法 实现 了 3D 打印 领域 的 技术 机 
AAY. K. 于 等 基于 专利 IPC 分 类 号 计算 技术 
相似 性 指标 ,运用 相对 技术 优势 法 和 国际 商业 潜力 评 
全 法 实现 了 汽车 自动 驾驶 相关 技术 的 机 会 分 析 "' 。 
它 文本 分 析 可 以 有 效 分 析 专 利文 件 文本 内 容 , 这 些 
内 容 对 于 理解 技术 文本 中 的 技术 特征 非常 关键 。M 
Yt Wang 等 综合 运用 文本 分 析 与 Orclus 聚 类 算法 分 析 
了 微 洛 生 物 燃料 的 专利 数据 和 论文 数据 ,进而 探索 出 
该 技术 的 潜在 技术 机 会 ;P，Musyuni 等 采用 专利 数 
据 对 以 往 冠状 病毒 的 相关 研究 技术 专利 文本 进行 挖 
气 , 预 测 未 来 发 展 趋势 ,结合 预测 结果 识别 出 Covid-19 
诊断 ,治疗 与 防御 措施 等 领域 存在 的 技术 创新 机 
AL. J. Feng 等 对 专利 文本 信息 进行 挖掘 ,采用 


构成 的 数据 ,通过 算法 将 原始 数据 从 高 维 数据 空间 映 
射 到 低 维 正则 网 格 上 ,空白 网 格 表示 该 点 并 没有 与 之 
对 应 的 技术 组 合 , 即 为 技术 空白 点 。 目 前 ,形成 专利 地 
图 常用 的 算法 有 主 成 分 分 析 法 和 自 组 织 映 射 方 
法 。 这 两 种 方法 均 能 绘制 出 客观 性 较 强 的 专利 地 
图 ,从 而 实现 了 技术 空白 点 的 识别 。 但 在 对 技术 空白 
点 的 解读 方面 ,这 两 种 算法 均 采 用 专家 意见 的 方式 , 导 
致 最 终 识别 结果 往往 受到 客观 现实 的 挑战 。 针 对 这 一 
缺陷 ,C，Son 等 提出 了 一 种 具有 逆向 映射 能 力 的 技术 
机 会 分 析 方 法 一 一 生成 式 拓扑 映射 ,由 于 该 方法 能 够 
采用 逆向 映射 的 方法 获得 技术 空白 点 所 表征 的 技术 组 
合 , 因 此 弥补 了 以 往 方法 在 技术 机 会 识别 时 客观 性 不 
足 的 缺陷 。 我 国学 者 吴 菲 菲 等 运用 生成 式 拓 扑 映射 
的 方法 对 陆地 无 线 接 人 技术 标注 的 空白 点 进行 识别 ， 
结果 验证 了 该 方法 可 以 很 好 应 用 于 技术 创新 机 会 识别 
领域 ” ; 许 学 国 等 采用 生成 式 拓扑 映射 方法 ,从 多 维 
数据 入 手 对 专利 地 图 的 技术 空白 点 进行 分 析 , 最 终 实 
现 了 技术 创新 机 会 的 有 效 识别 。 
1.2 链接 预测 

链接 预测 是 通过 分 析 已 知 的 网 络 结构 ,结合 其 他 
节点 的 潜在 信息 ,对 网 络 中 尚未 链接 的 节点 之 间 是 否 
存在 链接 的 可 能 性 进行 评估 S D. Liben 等 通过 对 
网 络 拓扑 信息 分 析 实 现 了 网 络 节点 之 间 的 链接 预 
测 ””… 。 但 在 网 络 分 析 过 程 中 常常 存在 数据 不 全 或 缺 
失 的 问题 ,从 而 导致 了 所 形成 的 网 络 中 存在 部 分 虚假 
链接 与 未 知 链接 。 链 接 预 测 通过 分 析 网 络 节 点 属性 与 
链接 状况 能 够 很 好 地 识别 出 网 络 中 存在 的 虚假 链接 ， 
并 且 可 以 对 网 络 节 点 之 间 可 能 出 现 的 链接 进行 判别 。 
C. Lee 等 将 链接 预测 应 用 于 技术 网 络 中 ,通过 技术 节 
点 间 的 链接 预测 ,实现 了 技术 创新 机 会 预测 。 

目前 ,学 者 常 采 用 马尔 科 夫 链 、 统 计 模型 .机 器 学 


Word2Vec 与 聚 类 分 析 相 结合 的 方法 实现 了 煤气 层 抽 
采 技 术 的 创新 机 会 识别 SX. Zhou 等 基于 专利 文本 
挖掘 与 专利 网 络 分 析 方 法 对 人 工 智能 相关 技术 进行 研 
究 ,运用 社区 挖掘 算法 对 重组 技术 的 发 展 潜力 进行 预 
测 , 从 而 实现 了 人 工 智能 领域 技术 创新 机 会 识别 1!; 
J. M. Gerken 等 从 语义 分 析 的 角度 提出 了 一 种 语义 新 
颖 性 计量 方法 ,从 而 识别 了 汽车 工业 的 技术 创新 机 
eu. 


技术 空白 点 具体 是 指 在 现 有 技术 组 合 中 并 未 存在 


习 和 深度 学 习 等 方法 对 网 络 节 点 之 间 的 潜在 关系 进行 
预测 。J. Leskovec 等 采用 逻辑 回归 模型 对 社交 网 络 中 
节点 之 间 的 潜在 链接 状况 进行 研究 ,进而 识别 出 社交 
网 络 中 的 潜在 好 友 '” ; 黄 璐 等 基于 链接 预测 方法 构建 
了 新 兴 技 术 发 展 识别 体系 ,并 对 钙 钛 矿 材 料 领域 的 新 
兴 技 术 主 题 进 行 识别 。 深 度 学 习 是 机 器 学 习 的 一 
个 重要 分 支 领域 ,是 从 数据 中 进行 学 习 的 一 种 新 方法 ， 
现代 深度 学 习 结 构 通常 包含 数 十 或 上 百 的 网 络 层级 结 
构 , 这 些 网 络 层 全 部 都 从 训练 数据 中 进行 学 习 。 因 此 
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相 较 于 以 往 研 究 方法 深度 学 习 通 常 能 够 显著 提升 预测 
MEME 。J. Chen 等 基于 深度 学 习 提 出 了 一 种 en- 
coder-LSTM-decoder ( E-LSTM-D ) 的 预测 模型 对 网 络 中 
的 动态 链接 进行 预测 ,结果 表明 该 模型 的 预测 结果 优 
于 传统 的 动态 网 络 链接 预测 SL. Rui 等 提出 了 一 种 
基于 堆栈 降 噪 自 编码 器 的 链接 预测 模型 对 工业 物 联网 
移动 设备 的 链接 状况 进行 预测 ,通过 历史 链接 信息 预 
测 下 一 时 刻 设备 的 链接 状况 ”。 随 着 计算 机 科学 的 


不 断 发 展 ,逐渐 有 学 者 从 新 的 视角 出 发 对 链接 预测 进 
行 研 究 。 
B. Yoon 等 学 者 发 现 如 果 将 链接 预测 问题 看 作 一 


个 有 监督 的 分 类 问题 , 则 可 以 使 用 文本 分 类 算法 通过 
对 已 有 知识 的 训练 学 习 , 实 现 对 未 来 数据 中 的 链接 状 
态 的 预测 。 根 据 这 一 思想 B. Yoon 等 采用 文本 分 类 模 
IHE V REEL EORR HIER CD 打印 技术 
进行 链接 预测 ,结果 表明 该 方法 在 各 技术 领域 的 预测 
准确 度 均 优 于 传统 链接 预测 方法 , 预测 准确 率 更 
o S. Oh 等 依据 专利 合作 信息 构建 了 基于 合作 专 
hp 的 链接 预测 模型 ,从 而 实现 了 新 产品 研发 方向 


2 可见, 现 阶段 国内 外 学 者 对 技术 机 会 分 析 .链接 预 
测 司 进行 深入 研究 ,但 现 有 研究 仍 存在 一 定局 限 性 。 
ee 
玉堂 找 专利 地 图 中 的 空白 区 域 作为 技术 机 会 ,并 未 对 
写 略 区 域 的 真正 含义 进行 研究 。 由 于 在 专利 地 图 中 ， 
并 哩 所 有 的 技术 空白 点 均 为 技术 机 会 ,其 中 一 些 技 术 
ee ee 


术 鸭 白 点 识别 出 的 技术 机 会 可 能 包含 无 法 发 展 的 低 关 


联 性 技术 机 会 。 因 此 需要 对 识别 出 的 技术 机 会 进行 分 
析 , 从 而 获得 更 为 准确 的 技术 机 会 。 此 外 , 随 着 人 工 智 
能 技术 的 快速 发 展 ,深度 学 习 以 其 适用 性 强 .准确 率 高 
的 特性 ,逐渐 有 学 者 尝试 将 深度 学 习 等 方法 应 用 于 技 
术 预 测 与 链接 预测 等 领域 ”” ,并 获得 了 更 为 准确 的 
结果 。 目 前 较 少 学 者 采用 基于 深度 学 习 的 链接 预测 方 
法 对 技术 机 会 预测 进行 研究 。 基 于 此 ,笔者 提出 一 种 
基于 深度 学 习 的 链接 预测 方法 对 专利 地 图 中 的 技术 空 
白 点 进行 链接 预测 ,进而 吻 除 低 关联 性 技术 空白 点 ,最 
终 实 现 技 术 机 会 预测 。 


2 研究 框架 和 分 析 方 法 


2.1 研究 框架 

笔者 提出 的 基于 深度 学 习 的 技术 机 会 预测 分 析 框 
架 ( 见 图 1) 主要 包括 :首先 对 专利 数据 进行 收集 与 预 
处 理 ,其 次 运用 apriori 算法 剔除 噪声 信息 进而 构建 技 
术 相 似 度 矩 阵 , 然 后 运用 AP 算法 进行 聚 类 分 析 从 而 
识别 出 主要 技术 领域 。 再 次 根据 AP 聚 类 分 析 结 果 采 
H Doc2 Vec 算法 计算 出 识别 出 技术 领域 内 所 包含 专利 
的 文本 相似 度 情况 ,通过 该 方法 从 整体 上 了 解 各 技术 
领域 的 技术 新 颖 性 ,从 而 筛选 出 具有 发 展 潜力 的 技术 
领域 ” 。 并 采用 GTM 绘制 具有 发 展 潜力 技术 领域 的 
专利 地 图 进而 获得 技术 空白 点 ,通过 GTM 逆向 映射 的 
方法 获得 各 技术 空白 点 所 表征 的 技术 组 合 。 最 后 构建 
基于 深度 学 习 的 链接 预测 模型 对 GTM 识别 出 的 技术 
组 合 与 已 有 技术 组 合 进行 链接 预测 ,从 而 挖掘 出 高 发 
展 概率 的 技术 组 合 ,最 终 实现 技术 机 会 预测 。 
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1 基于 深度 学 习 的 技术 机 会 预测 分 析 框架 
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以 新 能 源 汽车 为 例 [J]. 图 书 情报 工作 ,2021,65(19):130 - 141. 


2.2 基于 AP 聚 类 算法 的 技术 领域 识别 
2.2.1 Affinity Propagation 算法 

AP 聚 类 算法 最 初 是 B. J，Frey5 等 于 2007 年 在 
Science 期 刊 上 发 表 的 研究 成 果 。 该 算法 具有 不 用 规定 
聚 类 数目 的 优势 ,算法 在 迭代 过 程 中 自动 获得 最 优 聚 
Jeu Pu AP 聚 类 算法 出 现 以 后 大 量 学 者 对 该 算法 
的 性 能 与 效果 进行 分 析 ,R，Guan 等 将 AP 聚 类 算法 应 
用 于 半 监 督 文本 聚 类 ,研究 发 现 该 算法 的 聚 类 结果 优 
于 传统 聚 类 算法 的 结果 "5 。 国 显 达 等 对 比分 析 了 AP 
聚 类 与 k-means 算法 ,结果 显示 AP 聚 类 算法 性 能 优 于 
K-means 算法 ”1 。 采 用 AP 聚 类 算法 进行 聚 类 分 析 , 能 
够 克服 以 往 聚 类 算法 聚 类 结果 不 稳定 .信息 传播 不 完 
整 及 层次 划分 不 合理 的 缺点 ,因此 笔者 使 用 AP X 
类 疑 法 对 研究 主题 进行 挖 气 , 进 而 获得 更 加 客观 ,准确 
的 授 术 领域 
2]].2 技术 相似 性 
了 由 于 AP 聚 类 算法 的 输入 数据 为 技术 相似 甜 阵 ， 
因 秃 首先 需要 对 技术 距离 或 技术 相似 性 进行 测量 。 笔 
卷 池 用 李 勇 敢 提出 的 “相对 技术 相似 度 ” 方 法 ,对 技术 
距 才 进行 测量 。 该 方法 的 具体 过 程 为 :A、B 为 两 个 
不 同 领 域 的 技术 ,技术 A 相对 于 B 的 技术 关联 度 ( 技 
ARME R TARA: 


n 


AnP. X 10096 
na 


公式 (1) 


P< 其 中 ,n,ns 表 示 拉 术 A I B 的 专利 分 类 号 共同 出 
XS E RICE n, 表示 技术 A 的 专利 数量 。 计 算 结 
在 使 - 1 之 间 , 结 果 越 接近 于 1 表示 技术 A 与 技术 B 越 
相 个 ,反之 , 则 越 小 。 采 用 该 方法 构造 的 技术 关联 甜 阵 
为 非 对 称 和 矩阵 ,和 矩阵 中 的 数值 为 行 技 术 对 列 技术 的 技 
术 相 似 度 。 由 于 AP 聚 类 算法 的 输入 数据 可 以 是 非 对 
称 和 矩阵 ,因此 笔者 通过 该 方法 构建 专利 技术 相似 矩阵 
作为 AP 聚 类 算法 的 输入 数据 ,通过 技术 之 间 相 似 性 
特征 进行 聚 类 分 析 从 而 获得 主要 的 技术 领域 。 

2.3 基于 Doc2Vec-GTM 技术 机 会 识别 
2.3.1 基于 Doc2Vec 主题 相似 度 测 量 

2013 4£ , Google 开源 了 Word2vec 算法 ,该 算法 通 
过 神经 网 络 实现 了 词语 向 量化 。T. Mikolov 等 在 2014 
年 提出 一 种 更 为 新 颖 的 算法 Doc2Vec ,该 算法 可 将 名 
子 或 段落 直接 转化 为 固定 维度 向 量 ”。Doc2Vec 是 在 
Word2 Vec 的 基础 上 提出 的 一 种 用 于 测量 长 文本 问 量 
的 深度 学 习 算 法 。Doc2Vec 算法 在 进行 文本 数据 训练 
时 可 以 选择 两 种 模型 进行 训练 ,分 别 为 :DM ( Distribu- 
ted Memory Model ) 和 DBOW ( Distributed Bag of 


— Ris mi 


Words )“ 1。 在 训练 过 程 中 ,DBOW 模式 只 需 存 储 Soft- 
max 参数 ,而 DM 模式 还 需 存储 单词 的 词 向 量 ,训练 示 
意图 如 图 2 和 图 3 所 示 : 
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3 DBOW 模式 结构 


实践 表明 , Doc2 Vec 在 文本 相似 度 ” 、 文 本 分 
类 ' 等 方面 表现 出 良好 的 效果 。 因 此 ,笔者 将 
Doc2Vec 算法 应 用 到 专利 文本 内 容 的 相似 度 测量 当 
中 ,借助 Doc2 Vec 算法 可 以 保留 文本 上 下 文 语 境 信 息 
的 优势 ,实现 专利 摘要 文本 的 向 量化 描述 ,通过 计算 识 
别 出 的 各 技术 领域 内 所 包含 专利 文本 相似 度 信息 , 实 
现 从 整体 上 了 解 各 技术 领域 的 技术 新 颖 性 信息 ,从 而 
获得 具有 发 展 潜力 的 技术 领域 。 
2.3.2. 基于 专利 地 图 的 技术 空白 点 识别 

随 着 技术 竞争 的 日 趋 激烈 ,技术 空白 点 识别 已 经 
成 为 各 国 技术 机 会 挖掘 的 有 效 工 具 “ 。 目 前 常用 算 
法 主要 包含 主 成 分 分 析 法 principal component analy- 
sis,PCA), 自 组 织 映 射 网 络 (self organizing map, SOM ) 
和 生成 式 拓扑 映射 3 种 。 

采用 技术 空白 点 进行 技术 机 会 识别 ,关键 是 绘制 
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出 客观 的 专利 地 图 并 对 技术 空白 点 进行 科学 解读 。 
PCA SOM 和 GTM 均 能 绘制 出 客观 科学 的 专利 地 图 ， 
但 在 技术 空白 点 解读 方面 ,PCA 与 SOM 均 需 要 借助 专 
业 人 员 进 行 主观 判断 ,进而 分 析出 技术 潜在 发 展 方向 。 
而 GTM 具有 逆向 映射 专利 地 图 的 能 力 (如 图 4 rz), 
通过 逆向 映射 可 以 直接 获得 技术 空白 点 所 表征 的 技术 


利 地 医 


2.4 和 基于 深度 学 习 的 技术 机 会 预测 
< 光 在 专利 地 图 中 ,并 非 所 有 的 技术 空白 点 均 为 技术 
机 窖 , 其 中 一 些 技 术 空白 点 由 于 与 现 有 技术 的 低 关联 
性 舌 无 法 发 展 。 从 技术 持续 创新 发 展 的 角度 来 看 , 若 

术 空白 点 与 最 新 申请 的 专利 具有 高 度 关联 性 , 那 
么 时 具有 较 大 机 会 被 开发 实现 ,因为 新 技术 的 研发 成 
功 通常 是 在 已 有 技术 的 基础 上 不 断 创新 发 展 所 形成 
的 。 因 此 需要 对 专利 地 图 中 识别 出 的 技术 空白 点 进行 
分 析 , 进 而 识别 出 真正 的 技术 机 会 。 笔 者 采用 链接 预 
测 的 方法 对 技术 空白 点 进行 技术 评估 ,通过 预测 技术 
空白 点 与 已 有 技术 组 合 的 潜在 链接 情况 ,进而 探索 出 
最 具 发 展 潜力 的 技术 机 会 。 

常用 的 链接 预测 方法 有 基于 节点 邻 域 分 析 .路 径 
分 析 方法 和 分 类 方法 。 由 于 采用 GTM 识别 出 的 技术 
空白 点 与 已 有 专利 均 未 存在 联系 ,采用 基于 节点 邻 域 
分 析 方 法 无 法 实现 链接 预测 。 因 此 笔者 采用 分 类 方法 
对 技术 空白 点 与 已 有 技术 信息 的 关联 性 进行 预测 。 文 
本 分 类 方法 在 机 器 学 习 领 域 属于 监督 学 习 , 采 用 监督 
学 习 对 已 有 的 技术 信息 进行 学 习 , 获 得 技术 之 间 的 洪 
在 关系 ,进而 实现 对 技术 空白 点 与 现 有 技术 之 间 的 链 
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组 合 。 基 于 GTM 形成 的 专利 地 图 在 解释 专利 空白 方 
面 ,无 论 是 效率 还 是 效果 都 优 于 另外 两 种 方法 “| 。 
此 ,本 文采 用 GTM 对 识别 出 的 技术 领域 绘制 专利 地 
,从 而 获得 技术 空白 点 ,通过 GTM 逆向 映射 获得 各 
技术 空白 点 所 表征 的 技术 组 合 。 


生成 式 拓扑 网 络 
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4 GTM 逆向 映射 示意 


接 预 测 。 目 前 文本 分 类 领域 深度 学 习 以 其 预测 准确 率 
高 .适用 性 强 等 特点 已 广泛 应 用 于 各 研究 领域 ,并 取得 
了 较 好 的 预测 结果 。 因 此 为 了 提高 链接 预测 准确 率 ， 
笔者 尝试 构建 基于 深度 学 习 的 链接 预测 模型 对 GTM 
识别 出 的 技术 机 会 与 已 有 技术 组 合 进行 链接 预测 ,从 
而 挖掘 出 高 发 展 概率 的 技术 机 会 。 

为 了 采用 深度 学 习 对 技术 之 间 的 链接 关系 进行 预 
测 , 首 先 需 要 构建 训练 样本 与 测试 样本 。 由 于 技术 创 
新 发 展 过 程 在 科技 文献 引用 信息 中 有 所 体现 , 孙 冰 等 
构建 专利 引文 网 络 ,从 而 对 手机 芯片 的 核心 专利 进行 
识别 ,进而 对 该 专利 技术 的 扩散 路 径 进行 分 析 ”1 ; 柴 
庆 凤 等 基于 专利 引用 信息 构建 知识 流动 网 络 , 采 用 支 
持 向 量 机 和 多 元 线性 回归 方法 构建 链接 预测 模型 ,从 
而 实现 了 技术 链接 机 会 预测 所 ;C，Lee 等 在 专利 引用 
言 息 的 基础 上 结合 专利 基础 信息 提出 了 一 种 基于 机 器 
学 习 的 关键 新 兴 技术 识别 模型 ,通过 该 模型 实现 了 制 
药 领域 关键 新 兴 技 术 的 识别 “”。 因 此 ,笔者 根据 专利 
之 间 的 引用 关系 来 表征 专利 技术 持续 发 展 过 程 ,从 而 
构建 链接 预测 的 样本 数据 ,数据 构建 的 详细 过 程 如 表 
1 所 示 : 
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以 新 能 源 汽车 为 例 [J]. B E HER 6 ,2021,65(19) :130 - 141. 


表 1 训练 数据 和 测试 数据 


类 别 施 引 专利 (CA) 被 引 专利 (CB) IPC(CA) IPC(CB) 链接 
训练 数据 US2014232233-A1 US7999431-B2 (o ) (RSV ) 1 
US5761028-A US3916433-A Cepe, ) Ce ) 1 
WO2018026850-Al EP2846380-A1 (Ge, ) Qum ) 1 
JP2005017156-A EP1288051-A2 (Quem ) (rius oss ) 0 
JP2017123294-A CN106904079-A (Qmm ) Cle a ) 0 
TR201612616-A CN106560362-A (emn ) mm ) 0 
测试 数据 CA2820449-A1 EP2677177-A1 (Qum ) Gassan ) 1 
CN108116246-A CN205407309-U 人 (oe eet ) 1 
CN108119308-A KR2018058587-A (Quem ) (sues ) 0 
JP2018085790-A CN205811017-U (epe, ) Ce ) 0 


志和 输 出 数据 为 专利 之 间 的 链接 情况 。 若 两 项 专利 存 
在 [区 存在 ) 引 用 关系 , 则 归 半 为 “链接 (不 链接 )"。 数 


据 处 理 过 程 采 用 Python 语言 编写 程序 ,首先 提取 专利 


RIE SINRA. 


模 而 框架 如 图 5 所 示 : 


Citing IPC Cited IPC | 


MAE PN 信息 获得 专利 数据 的 专利 号 作为 专利 数据 
的 矿 识 信息 。 其 次 ,提取 专利 数据 中 的 CP 信息 获得 专 
利 数 据 的 引用 信息 。 最 后 ,根据 专利 数据 的 标识 信息 


.一 笔者 采用 链接 预测 的 方法 对 通过 GTM 逆向 映射 
识别 出 的 技术 空白 点 进行 评估 ,通过 预测 技术 空白 点 
与 已 有 技术 组 合 的 潜在 链接 情况 ,进而 探索 出 最 具 发 
REDERNE. HERETER ERN 


ding) 对 输入 数据 进行 词 向 量化 处 理 。 随 后 运用 连接 
层 将 分 别 通过 双 层 长 短 记 忆 神 经 网 络 (LSTM ) 处 理 后 
的 输入 数据 进行 合并 。 接 着 添加 3 个 激活 函数 为 relu 
的 全 连接 层 (Dense ) ,并 在 他 们 之 间 添 加 Dropout 层 。 
最 后 添加 激活 函数 为 sigmoid 的 分 类 器 。 通 过 输入 数 
据 进行 训练 ,获得 链接 预测 模型 。 
笔者 使 用 Python 语言 选择 深度 学 习 Keras 库 搭建 
基于 深度 学 习 的 链接 预测 模型 ,计算 后 台 选 用 ”Tensor- 
flow”。 在 训练 过 程 中 为 了 保证 模型 输入 数据 长 度 统 
,采用 Keras 库 中 的 “pad_sequences” 了 函数 对 输入 数 
据 进行 填充 。 此 外 训练 过 程 中 模型 优化 器 选择 “RM- 
SProp" , batch. size 设置 为 64 ,由 于 最 终 节 点 设置 判别 
为 真 和 假 , 因 此 损失 函数 设置 为 "binary_crossentropy”。 
通过 训练 完成 的 链接 预测 模型 能 够 对 CTM 识别 出 的 
技术 空白 点 与 已 有 技术 组 合 信息 进行 链接 预测 ,从 而 
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实现 对 技术 空白 点 的 机 会 预测 。 
3 ”实证 研究 


3.1 数据 收集 与 预 处 理 
3.1.1 数据 收集 

专利 作为 科学 技术 的 载体 ,经 过 相关 领域 专家 的 
严密 审核 和 科学 验证 ,能 够 准确 地 反映 出 技术 内 容 ， 
此 学 者 们 常 采用 专利 信息 进行 技术 机 会 的 挖掘。 笔者 
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图 5 基于 深度 学 习 的 链接 预测 模型 


基于 深度 学 习 的 链接 预测 模型 的 输入 数据 为 施 引 


专利 的 IPC 和 被 引 专利 的 IPC ,通过 词 租 入 层 ( Embed- 


以 新 能 源 汽车 技术 为 例 进行 方法 有 效 性 研究 ,采用 TI 
= (New energy vehicle OR New energy automobile OR 
Battery Electric Vehicle OR Battery Electric automobile 
OR pure electric vehicle OR pure electric automobile OR 
hybrid electric vehicle OR hybrid electric automobile ) 检 
索 式 在 德 温 特 专利 数据 库 进 行 检 索 ,时间 设置 为 1968 
-2019 年 ,检索 时 间 为 2020 年 8 H 11 日 , 共 检 索 到 
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71 064 项 专利 (包含 专利 族 ) 数 据 。 
3.1.2 数据 预 处 理 


在 关系 。 通 过 对 专利 分 类 号 分 析 可 以 实现 技术 关联 
性 ,技术 差异 性 与 技术 交叉 性 等 方面 的 分 析 。 因 此 采 


首先 根据 专利 公开 号 对 专利 族 进行 处 理 。 然 后 依 
据 专利 优先 权 申请 和 日 期 ,提取 出 各 专利 的 申请 日 期 ， 
由 于 1995 年 之 前 新 能 源 汽车 领域 的 专利 数量 仅 为 
2 780 项 ,因此 笔者 分 时 段 筛 选 出 1995 - 1999 年 .2000 
-2004 年 .2005 - 2009 年 .2010 - 2014 年 和 2015 - 
2019 年 专利 数据 进行 分 析 。 随 后 ,提取 每 个 专利 的 国 
际 分 类 号 IPC。 最 后 提取 各 专利 的 摘要 文本 ,并 对 摘 
要 文本 进行 停 用 词 吻 除 . 词 干 提取 等 文本 预 处 理 ,进而 
确保 模型 结果 质量 。 
3.2. 基于 AP 聚 类 算法 的 技术 领域 识别 

专利 是 技术 情报 中 最 重要 的 载体 之 一 ,专利 文档 
中 对 技术 情报 的 记录 准确 且 丰 富 ,专利 是 企业 参与 技 
术 沈 和 争 与 发 展 最 重要 的 资源 之 一 。 每 个 专利 数据 均 包 
俞 于 高 度 概括 其 技术 范围 的 国际 专利 分 类 号 (IPC)， 
该 盆 类 号 是 由 专利 机 构 审查 人 员 根 据 技 术 标准 对 专利 
进 重 标 注 , 通 过 查阅 相关 的 技术 手册 可 以 轻松 查询 到 
该 从 类 号 所 表征 的 技术 领域 。 并 且 当 专 利 拥有 两 个 及 
上 县 的 分 类 号 时 , 则 表明 该 专利 的 内 容 涉及 多 个 技术 
,这 意味 着 这 些 分 类 号 所 表示 的 技术 主题 之 间 存 


r3 B60L- 


有 专利 数据 中 IPC 分 类 号 进行 技术 领域 识别 能 够 进 一 
步 增强 分 析 结 果 的 准确 性 。 

为 了 使 用 AP 聚 类 算法 进行 聚 类 分 析 , 首先 需要 
构建 技术 相似 和 矩阵 作为 输入 数据 。 由 于 现 阶段 需要 分 
析 的 数据 比较 庞大 ,传统 的 统计 方法 难以 进行 大 规模 
的 深度 分 析 , 所 以 笔者 使 用 数据 挖掘 的 方法 以 获取 有 
价值 的 知识  。 关 联 分 析 作 为 一 种 有 效 的 数据 挖掘 
工具 ,之 前 常用 在 分 析 客 户 的 消费 习惯 员工 的 组 织 特 
征 等 领域 。 现 阶段 已 有 学 者 运用 关联 规则 对 不 同 量 级 
知识 数据 进行 挖掘 ,研究 表明 采用 关联 规则 方法 从 知 
识 共 现 关系 中 提取 技术 联系 的 可 能 所 。 因 此 采用 
apriori 算法 对 数据 进行 挖掘 ,可 以 从 海量 数据 中 快速 
识别 出 其 中 主要 的 组 成 部 分 ,作为 AP 聚 类 分 析 的 输 
人 数据。 通过 该 方法 可 以 过 滤 掉 大 量 的 噪声 信息 ,从 
而 保证 分 析 结 果 的 质量 。 笔 者 参考 以 往 学 者 经 验 
将 apriori 算法 的 最 小 支持 度 设 置 为 0.01 ,最 小 置信 度 
WEEDS 0.37, PA 2015 - 2019 年 为 例 ,共识 别 出 65 
项 IPC ,根据 公式 (1) 构 建 65 * 65 的 技术 相似 度 和 矩阵 ， 
详细 结果 如 表 2 所 示 : 


Cm 


表 2， 技 术 相似 性 矩阵 


HOIM- HOIM- B60W-  B60L- B62D- HOIM- HOIM- HOIM- GOIR- HOIM-  HOIM- 

050/64 002/10 010/615 020/13 011/18 025/20 002/26 010/63 002/30 031/36 010/6551 010/6563 
B60L-050/64 1.00 0.74 0.04 0.02 0.42 0. 05 0.04 0.01 0.09 0.01 0.03 0. 03 
( H01 M-002/10 0.07 1.00 0.06 0.00 0.21 0. 03 0.09 0.03 0.09 0.02 0.09 0.07 
c HO01M-010/615 0.02 0.37 1.00 0.00 0.40 0.07 0.08 0.21 0.02 0.02 0.07 0.16 
e B60W-020/13 0.01 0.01 0.00 1.00 0.44 0. 00 0.00 0.00 0.00 0.05 0.00 0.01 
O B60L-011/18 0.03 0.16 0.05 0.05 1.00 0.02 0.02 0.03 0.01 0.06 0.01 0. 03 
B62D-025/20 0.07 0.49 0.17 0.00 0.45 1.00 0.17 0.17 0.00 0.00 0.00 0.00 
H01M-002/26 0.02 0.51 0.08 0.00 0.13 0. 06 1.00 0.07 0.37 0.03 0.03 0.02 
H01M-010/63 0.01 0.39 0.52 0.01 0.56 0.16 0.17 1.00 0.01 0.03 0.05 0.15 
H01M-002/30 0.05 0. 62 0.02 0.00 0.12 0.00 0.43 0.00 1.00 0.04 0.06 0.01 
GOL R-031/36 0.00 0. 09 0.01 0.02 0.28 0.00 0.02 0.01 0.02 1.00 0.01 0.01 
H01 M-010/6551 0.02 0.84 0.12 0.00 0.16 0.00 0.04 0.03 0.08 0.02 1.00 0.17 
H01M-010/6563 0.02 0.58 0.22 0.01 0.31 0.00 0.02 0.08 0.01 0.02 0.16 1.00 


获得 技术 相似 和 矩阵 后 ,笔者 使 用 AP 聚 类 算法 进 
行 技术 领域 识别 。AP 聚 类 使 用 的 是 近邻 传播 方法 ,其 
能 够 较 好 地 解决 聚 类 过 程 中 对 数据 的 主题 聚 类 数目 的 
确定 。 该 算法 不 用 提前 规定 结果 簇 的 个 数 。 笔 者 采用 
Python 语言 使 用 机 器 学 习 “sklearn” 库 中 的 Affinity 
Propagation 算法 ,将 各 时 期 的 技术 关系 矩阵 输入 AP R 
类 算法 进行 聚 类 ,获得 各 时 期 的 聚 类 结果 。 


3.3 基于 Doc2Vec 专利 文本 相似 度 测 量 

通过 AP 聚 类 算法 的 聚 类 结果 可 以 确定 每 项 专利 
所 属 的 技术 领域 ,为 了 从 整体 上 研究 各 技术 领域 的 技 
术 新 颖 性 ,笔者 采用 Doc2 Vec 算法 对 专利 摘要 文本 进 
行 训练 ,从 而 计算 出 各 领域 内 摘要 文本 的 相似 度 状况 。 
在 实验 过 程 中 主要 参数 的 设 定 为 :DM =1( 即 采用 DM 
模式 ) ,window 设 定 为 6, 文 本 癌 量 维度 设置 为 50。 在 
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以 新 能 源 汽车 为 例 [J]. 图 书 情报 工作 ,2021,65(19):130 - 141. 


实验 中 ,为 提高 计算 的 精度 ,笔者 将 epochs 的 值 设 定 为 表 3 展示 了 1995 - 1999 年 .2000 — 2004 年 .2005 
40, 且 每 次 epoch 都 对 训练 数据 重新 打 乱 。 最 终 计算 - 2009 年 .2010 -2014 年 和 2015 -2019 年 这 5 个 时 期 
获得 各 技术 领域 内 文本 相似 度 情况 ,如 表 3 所 示 : 通过 AP 聚 类 识别 出 的 各 技术 领域 的 组 内 文本 相似 度 
表 3 文本 相似 度 情况 情况 。 为 了 更 加 清晰 观察 不 同时 期 各 技术 领域 的 变化 
yg 195- 2000 - 2005 - 2010 - 2015 - 趋势 ,笔者 绘制 了 1995 -2019 年 技术 变化 桑 基 图 , 见 
1999 年 2004 年 2009 年 2014 年 2019 年 
6。 

1 0.298 2 0.241 7 0.197 5 0.2632 0.1529 — M—À 5 pee dab 

2 0.1832 0.235 3 0.1634 0.182 6 0.223 8 如 图 6 所 示 , 其 中 每 列 代表 5 个 不 同时 期 采用 

3 0.290 1 0.3349 0.204 8 0.223 8 0.223 2 聚 类 算法 识别 出 的 主要 技术 领域 ,为 了 便于 观察 将 每 

4 — 0.2305 0.210 7 0.339 9 0.1619 0.209 9 列 数据 统一 命名 。 例 如 1995C1 ,该 项 表示 1995 - 1999 

5 0.231 2 0.279 3 0.370 8 0.218 3 0.326 4 年 这 一 时 期 复 1 中 所 包含 的 所 有 IPC ,线条 宽度 表示 簇 

6 0.203 9 0.285 9 0.274 8 0.320 6 0.2218 1 所 包含 的 IPC 数量 。 不 同 簇 之 间 的 连接 信息 为 各 簇 

oaoa A MARDI CA 之 间 存在 相同 JPC 的 情况 , 连 线 的 宽度 表示 两 篮 之 间 

8 0.1906 0.240 4 0.249 9 0.212 4 Ma mE 

sauna | 具有 相同 IPC 的 数量 。 由 于 随 着 技术 的 不 断 发 展 ,其 
T oai ouas | 中 一 些 IPC 仅 存在 于 其 中 一 段 时 期 ,因此 无 法 在 桑 基 

a 0.201 4 图 中 呈现 。 结 合 图 6 和 表 3 可 以 发 现 1995 -1999 时 期 
N 995C4 
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T 6 1995 - 2019 年 新 能 源 汽车 技术 变化 桑 基 图 


文本 相似 度 最 低 的 复 2 最 为 活跃 ,该 领域 技术 持续 发 展 与 
其 它 新 技术 不 断 结合 发 展 形成 了 2000 -2004 时 期 的 复 2、 
83 和 4 等 技术 领域 ,是 1995 - 1999 时 期 最 为 活跃 的 技术 
领域 。 除 此 之 外 1995 - 1999 年 文本 相似 度 较 低 的 簇 6 也 
不 断 发 展 为 下 一 期 的 徐 1 和 8 等 技术 领域 。 其 余 时 期 各 
技术 领域 的 技术 变化 趋势 也 呈现 出 相似 的 特征 ,如 2000 - 
2004 年 文本 相似 度 较 低 的 簇 4、 簇 8 均 不 断 发 展 ,其 中 许 
多 技术 不 断 融 合 逐 渐 发 展 成 为 下 一 期 新 的 技术 领域 。 该 
结果 印证 了 采用 AP 聚 类 对 技术 领域 识别 的 基础 上 结合 
自然 语言 处 理 技术 对 技术 领域 文本 相似 度 进 行 分 析 能 
较 好 地 识别 出 具有 发 展 潜力 的 技术 领域 。 
3.4 基于 GTM 技术 机 会 识别 

通过 AP 聚 类 算法 和 Doc2Vec 算法 实现 了 对 新 能 
源 汽车 领域 不 同时 期 的 发 展 潜力 技术 领域 识别 。 为 了 
对 发 展 潜力 领域 技术 进行 深入 挖掘 ,笔者 采用 GTM 对 


发 展 潜力 领域 进行 技术 空白 点 分 析 , 从 而 获得 技术 机 
会 ,输入 数据 为 所 属 该 簇 专利 IPC 数据 。 在 GTM 参数 
设置 方面 ,笔者 采用 21 * 21 维 的 高 斯 函数 作为 基 郴 
数 , 基 函 数 的 宽度 值 设 置 为 2, 正 则 化 参数 为 0.001。 
以 2015 - 2019 年 相似 度 最 低 的 复 1 数据 为 例 进行 分 
Vr i 1 专利 所 形成 的 专利 地 图 见 图 7。 

在 CTM 所 绘制 的 专利 地 图 中 ,每 个 点 代表 一 种 专 
利 (“ x”) ,空白 点 (“@”) 是 未 来 可 能 出 现 的 技术 专 
利 ,其 中 可 能 包含 多 项 关键 技术 ,这 些 技术 组 合 可 能 是 
未 来 技术 发 展 的 关键 创新 点 。 为 了 获得 各 技术 空白 点 
所 表征 的 具体 技术 ,需要 通过 CTM 逆向 映射 ,将 技术 
空 日 点 逆向 映射 到 原始 数据 空间 ,从 而 完成 技术 空白 
点 的 解析 ( 见 图 4) ,可 以 看 出 识别 出 的 技术 空白 点 对 
应 了 表格 中 的 每 一 行 ,表格 的 数据 是 各 技术 空白 点 经 
过 GTM 逆向 映射 后 出 现在 原始 空间 对 应 技术 下 的 概 
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图 7 2015 -2019 £j 1 专利 地 图 


率 。 为 了 获得 各 技术 空白 点 所 表征 的 技术 组 合 ,需要 
设置 阔 值 对 各 技术 出 现 的 概率 进行 比较 ,其 中 大 于 阅 
候 的 技术 均 被 保留 下 来 。 现 阶段 没有 统一 确定 阔 值 的 
方法 ,以 往 学 者 常 通 过 研究 目的 对 阔 值 进行 确定 。 通 
PU TS , 若 所 取 的 阔 值 越 大 ,识别 出 的 技术 空白 点 就 
越 纺 。 笔 者 借鉴 以 入 研究 成 果 将 阔 值 设 为 0.3 进而 得 
HRA ERR EEE ,从 而 获得 各 技术 空白 点 所 
表 律 的 技术 组 合 ,部 分 结果 见 表 5。 

MA 基于 深度 学 习 的 技术 机 会 预测 

CN 为 了 对 GTM 识别 出 的 空白 技术 组 合 进行 深入 分 
析 : 笔 者 采用 深度 学 习 的 方法 构建 链接 预测 模型 ( Deep 
Learning Link Prediction ,DLLP) 对 各 技术 空白 点 进行 链 
接 预 测 。 模 型 的 训练 数据 与 测试 数据 根据 专利 引用 信 
旧 坦 行 筛选 , 共 获得 11 768 项 数据 样本 ,其 中 存在 引 
用 锋 系 数据 5 870 项 ,不 存在 引用 关系 5 898 项 。 按 昭 
训练 集 与 测试 集 4:1 的 比例 进行 划分 ,最 终 获 得 训练 
所 短 的 训练 数据 8 140 项 与 测试 数据 3 628 项 。 随 后 
分 别 将 训练 数据 与 测试 数据 放 人 已 经 设置 好 的 基于 深 
度 学 习 的 链接 预测 模型 当中 进行 训练 ,从 而 获得 最 终 
的 预测 模型 。 此 外 ,笔者 选择 常用 的 文本 分 类 模型 支 
持 向 量 机 (SVM) ,决策 树 (DT) 、 贝 叶 斯 (NB) 、 逻 辑 回 


归 (LR) 和 集成 学 习 算 法 Bagging, Xgboost 进行 对 照 实 
验 ,采用 准确 率 、 召 回 率 与 Fl 值 对 比分 析 该 模型 的 分 
类 效果 。 具 体 结果 如 表 4 Bron: 

ARA ”模型 误差 统计 


分 类 模型 类 别 准确 率 召回 率 Fl 值 
DLLP 0. 813 0. 807 0.810 

DT 0. 707 0.701 0. 704 

LR 0. 670 0. 667 0. 668 

NB 0. 666 0. 658 0. 662 

SVM 0.757 0. 756 0. 756 
Bagging 0. 779 0.779 0. 779 
Xgboost 0. 764 0. 762 0. 763 


根据 表 4 可 以 发 现 ,笔者 提出 的 基于 深度 学 习 的 
链接 预测 模型 在 预测 准确 率 、 召 回 紊 及 Fl 值 均 优 于 其 
他 模型 。 结 果 表 明 该 方法 能 够 显著 提升 预测 精度 ,其 
预测 结果 准确 性 更 高 。 基 于 深度 学 习 的 链接 预测 模型 
能 够 很 好 地 实现 专利 之 间 的 链接 预测 。 因 此 运用 该 模 


型 对 采用 GTM 获得 的 空白 技术 组 合 和 已 有 专利 进行 
链接 预测 分 析 , 其 中 输入 数据 为 空白 技术 组 合 的 IPC 


言 息 与 现 有 专利 的 IPC. 信息 ,模型 输出 结果 即 为 该 空 
白 技术 组 合 与 已 有 专利 的 链接 预测 值 。 由 于 笔者 构建 
的 深度 学 习 模 型 最 后 一 层 全 连接 层 采 用 “sigmoid” 激 
活 函 数 ,因此 模型 的 预测 结果 被 压缩 到 0 - 1。 若 某 项 
空白 技术 组 合 与 已 有 专利 具有 较 强 的 关联 性 , 则 预测 结 
果 接 近 1 ,反之 亦 然 。 其 中 ,每 个 空白 技术 组 合 与 多 项 已 
有 专利 存在 链接 预测 值 ,笔者 取 各 项 空白 技术 组 合 的 最 
高 链接 预测 值 为 该 空白 技术 组 合 的 预测 结果 ,依据 预测 
结果 从 而 识别 出 具有 高 发 展 概率 的 技术 机 会 。 

通过 预测 结果 可 以 轻松 识别 出 具有 较 高 发 展 概 率 
的 技术 机 会 。 笔 者 以 2015 - 2019 年 复 1 数据 为 例 对 
GTM 识别 出 的 空白 技术 组 合 进 行 分 析 , 通 过 对 空白 技 
术 组 合 与 已 有 专利 信息 进行 链接 预测 ,进而 获得 各 空 
白 技 术 组 合 的 最 终 预测 结果 。 其 中 预测 值 大 于 0.9 的 
空白 技术 组 合 有 11 项 ,如 表 5 所 示 : 


表 5 技术 机 会 预测 结果 


序号 IPC 预测 值 
1 B60L-053/22 ; B60L-011/18 ; HO2J-007/00; B60L-053/14 ; H02J-050/10 ; B60L-053/12 ; HO2J-007/02 ; 0.93 
2 B60L-011/18 ;H02]J-007/00 ; B60L-053/14 ; H02J-050/10 ; B60L-053/12 ; H02J-007/02 ; 0.93 
3 B60L-050/60 ; B60L-003/00 ; B60L-053/22 ; B60L-011/18 ; B60L-001/00 ; H02J-007/00 ; B60L-053/14 ; B60L-053/20 ; HO2M-003/335 ; B60L-058/22 ; 0.93 
4 B60L-050/60 ; B60L-003/00 ; B60L-053/22 ; B60L-011/18 ; B6O0L-001/00 ; H02,J-007/00 ; B60L-053/20 ; 0.93 
5 B60L-050/60 ; B60L-003/00 ; B60L-053/22 ; B60L-011/18 ; B60L-001/00 ; H02,J-007/00 ; B60L-053/14 ; B60L-053/20 ; H02J-007/34 ; H02M-003/335 ; 0.93 
6 B60L-050/60 ; B60L-003/00 ; B60L-053/22 ; B60L-011/18 ; B60L-001/00 ; H02J-007/00 ; B60W-010/26 ; B60L-053/20; H02J-007/34 ; HO2M-003/335; 0.93 
7 B60L-003/00 ; B60L-011/18 ; H02J-007/00 ; BGOR-016/033 ; HO1 M-010/48 ; H01 M-010/42 ; 0.93 
8 B60L-011/18 ; H02J-007/00 ; B60L-053/30 ; B60L-053/16 ; B60L-053/14 ; B60L-053/60 ; H02J-007/02 ; 0.92 
9 B60L-050/60 ; B60L-003/00 ; B60L-053/22 ; B60L-011/18 ; B60L-001/00 ; H02J-007/00 ; B60L-053/14 ; B60L-053/20 ; G01 R-031/02; H02J-007/34; | 0.92 

H02M-003/335 ; 
10 B60L-003/00 ; B60L-011/18 ; B60L-001/00 ; H02J-007/00 ; BGOR-016/03 ; BGOR-016/033 ; 0.92 
11 B60L-011/18;H02J-007/00 ; B60L-053/30 ; B60L-053/16 ; B60L-053/14 ; B60L-053/60 ; H02 J-050/10 ; B60L-053/12 ; H02J-007/02 ; 0.9 
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以 新 能 源 汽车 为 例 [J]]. 图 书 情报 工作 ,2021 ,65(19) :130 - 141. 


为 了 深入 分 析 识 别 出 的 技术 机 会 ,查阅 IPC 所 对 
应 的 技术 范围 就 能 分 析出 每 项 高 发 展 概率 的 技术 机 会 
所 表示 的 技术 领域 。 其 中 1 .2 和 11 涉及 无 线 充电 技 
术 ,4.5 涉及 车 辆 电力 逆 变 器 ,6 涉及 整 车 控制 系统 ,7 
和 9 涉及 电池 监控 装置 ,10 涉及 整 车 集成 技术 。 根 据 
2019 年 .2020 年 世界 新 能 源 汽车 大 会 研究 报告 和 相关 
学 者 研究 “指出 ,未 来 新 能 源 汽车 研究 的 前 沿 技术 及 
重点 技术 领域 主要 包括 电动 汽车 无 线 充电 技术 、800 
伏 逆 变 器 技术 、 电 池 动 力 系统 电池 控制 系统 技术 、 整 
车 控制 系统 和 整 车 集成 技术 等 领域 。 对 比分 析 本 文 获 
得 的 技术 机 会 预测 结果 可 以 发 现 ,其 结果 基本 涉及 专 
家 预测 的 技术 领域 ,该 结果 进一步 验证 了 该 方法 的 有 
效 性 。 
从 实验 结果 可 以 发 现 ,笔者 提出 的 基于 深度 学 习 
的 我 术 机 会 预测 模型 能 够 有 效 实现 专利 技术 知识 流动 
的 预测 ,通过 对 专利 国际 分 类 号 的 分 析 , 能 够 提早 识别 
出 技术 在 创新 融合 过 程 中 的 研究 方向 ,进而 实现 技术 
HENN. 
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发 展 方向 ,从 而 调整 发 展 战略 ,为 技术 竞争 占据 有 利 态 


势 二 基于 此 ,笔者 运用 深度 学 习 结合 专利 文本 信息 及 
专 击 引用 关系 构建 了 一 种 新 的 技术 机 会 预测 方法 。 以 
新 能 源 汽车 技术 为 例 ,实证 检验 了 该 方法 的 可 行 性 ,并 
对 新 能 源 汽车 的 技术 机 会 进行 预测 。 本 研究 为 基于 人 
工 策 能 .大 数据 分 析 的 技术 机 会 预测 提供 了 一 种 新 的 
决 思路 与 方法 ,进而 为 我 国 其 他 技术 领域 技术 机 会 
预测 提供 了 一 定 的 借鉴 意义 。 

当然 ,本 文 的 研究 还 存在 一 定 不 足 , 这 将 成 为 后 续 
的 研究 重点 。 如 本 文 仅 考虑 使 用 专利 数据 对 新 能 源 汽 
车 的 主要 技术 领域 进行 技术 机 会 预测 ,由 于 不 同 的 文 
献 类 型 代表 了 技术 发 展 的 不 同 阶段 ,本 研究 结果 仅 能 
体现 技术 实验 阶段 的 实际 情况 ,在 实际 决策 时 需要 考 
虑 其 他 相关 维度 信息 后 。 此 外 GTM 的 参数 设 定 比较 
敏感 ,如 果 参 数 设 定 失误 将 导致 整个 研究 的 失败 。 
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Abstract: | Purpose/significance | Technology opportunity prediction helps national and enterprise managers to 
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identify the future direction of technology development, to adjust the development strategy and occupy a favorable 
posture for technology competition. | Method/process | In this paper, a deep learning-based technology opportunity 
diction method was proposed. Firstly, the Affinity Propagation ( AP) clustering algorithm was applied to achieve 
(the subject classification of technology fields. Secondly, the Doc2 Vec algorithm was used to calculate the gana of 
tent texts in each technology area, and then identify the technology areas with development potential. Thirdly, t 
_Benerative Topographie Mapping ( GTM) algorithm was used to map the patent areas with development potential, and 
S< got the technology opportunities through GTM inverse mapping. Finally, a link prediction model based on deep 
rning was constructed to predict the links of the identified technology opportunities , to obtain the technology oppor- 
»tunities with high development probability. | Result/conclusion | This paper uses new energy vehicle patent data to 
B5 the effectiveness of the method. The results show that the prediction accuracy, recall and F1 value of the deep 
learning-based link prediction model outperform other prediction models and predict the technology opportunities for 
new energy vehicles. 
Keywords: technology opportunity prediction the generative topographic map- 
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